[Day19] Scrapy爬蟲框架 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 19

0

自我挑戰組

用Python學習網路爬蟲30天系列第 19 篇

[Day19] Scrapy爬蟲框架

14th鐵人賽

2022-10-03 20:57:10

896 瀏覽

分享至

Scrapy簡介

Scrapy是一套開放原始碼的框架，提供多種工具從Web網站擷取資料，主要應用於資料量較大、邏輯處理較複雜的網頁爬取。除了可以剖析與爬取網頁資料外，它還可以發送請求、處理和儲存成指定的檔案格式、偵錯等等多項功能，方便我們運用與管理所需要的資料。

安裝Scrapy

開啟 Anaconda Prompt命令提示字元後輸入安裝指令
```
conda install -c conda-forge scrapy 
```
輸入y鍵確認下載與安裝套件及完成安裝

使用Scrapy Shell擷取資料

開啟 Anaconda Prompt命令提示字元並輸入指令啟動Scrapy Shell
```
scrapy shell
```
使用下方指令下載指定的網頁網址，實作練習以批踢踢實業坊中的股票版網址為例
```
fetch(“網頁網址”)
```
若回應資訊出現DEBUG: Crawled (200)代表成功下載指定網址

使用下方指令顯示下載的網頁內容
```
view(response)
```
定位要擷取的資料並取得

(1) CSS選擇器: 取得全部文章標題
```
response.css("以css表示的資料位置").extract()
```
(2) XPath表達式: 取得全部發文的推文數
```
response.xpath("以xpath表示的資料位置").extract()
```

[Day18] Selenium總複習

[Day20] Scrapy爬蟲框架2_建立專案

系列文

用Python學習網路爬蟲30天共 30 篇

目錄

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

SAP B1 如何將"自定義表格"匯出並且匯入到另一個資料庫

IT邦幫忙